
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式强化学习改变了大语言模型的后训练范式,可以说,已成为AI迈向AGI进程中的关键技术节点。然而,其中奖励模型的设计与训练,始终是制约后训练效果、模型能力进一步提升的瓶颈所在。
强化学习改变了大语言模型的后训练范式,可以说,已成为AI迈向AGI进程中的关键技术节点。然而,其中奖励模型的设计与训练,始终是制约后训练效果、模型能力进一步提升的瓶颈所在。
曾被 OpenAI 相中,开价 30 亿美元的 AI 编程初创公司 Windsurf,如今转身投奔了 Google。就在刚刚,Google 宣布将 Windsurf 部分高管及工程团队纳入其旗下的 DeepMind 团队,重点推进「代理式编码」(Agentic Coding)方向的研究。
我是一个重度的 AI产品使用“患者”说自己是一个患者,是最近发现有几次自己对 AI 生产的“高质量”内容已经没有感觉了,我觉得我深度阅读的能力退化...我最早接触到 AI 可以追溯到大学时期阅读的赫伯特・西蒙的《人工智能科学》这本书,它对人工智能领域所涉及的脑科学、经济学、心理学、设计科学很多学科都做了有意思的解读。
今天是 xAI 的大日子,伊隆・马斯克早早就宣布了会在今天发布 Grok 4 大模型,AI 社区的眼球也已经向其聚拢,就等着看他的直播(等了挺久)。当然,考虑到 Grok 这些天的「失控」表现,自然也有不少人是在等着看笑话。
最近,Ai2耶鲁NYU联合推出了一个科研版「Chatbot Arena」——SciArena。全球23款顶尖大模型火拼真实科研任务,OpenAI o3领跑全场,DeepSeek紧追Gemini挤入前四!不过从结果来看,要猜中科研人的偏好,自动评估系统远未及格。
LeCun 向 Alexandr Wang 汇报?Meta 内部:是的。 招募了一众 AI 大牛以后,Meta 能吃得消吗?—— 这可能是很多人在问的问题。
中国人民大学高瓴人工智能学院的研究团队提出通过创新模型架构来提升性能,其SPACE模型引入新架构,提升了DNA基础模型的性能与泛化能力,在多项测试中表现优异。
现在的AI Agent在文档生成PPT或视频方面,要想像人一样,把文字、图片、讲解、音视频全都串起来讲清楚,还真不太行。
AI 商品图,国内厂商很难追赶的一条赛道。
距离 3 月凭借 “AI 智能体自主完成复杂任务” 的产品惊艳亮相仅四个月不到,AI Agent 公司 Manus 就因一场大规模裁员陷入舆论漩涡。近日, Manus 向多家媒体证实,公司对国内业务团队展开优化,120 名员工中,除 40 余名核心技术人员迁往新加坡总部,其余皆被裁员。